P2-14 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果 - yuiseki

P2-14 視覚と言語の融合モデルにおける知識の振る舞いを調査するための表と画像の生成タスクの提案及びその調査結果

画像から表を作る

表から画像を作る

Wikipediaのデータセットを使っている

WikipediaのInfoBox

V&Lモデルは元の情報を「忘却」している

画像とテーブルのキーとバリューを正確に対応付けすることは困難

画像から表を作ることも今後検討中

🤔写真を撮影するだけで機械可読なデータベースができるかもしれない！

すごい